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Identification de langue d'un texte 

La presents invention concerne 1 T identification 
de la langue d'un texte qui peut etre court et 
5 compose de quelques mots, voire d'un seul mot. 

L 1 invention s' applique particulierement au ^ 
traitement automatique de langue naturelle au moyen 
duquel la langue d'un texte ecrit est reconnue avant 
que par exemple le texte soit traduit dans d'autres 

10 langues, ou soit synthetise en un message vocal. Les 
outils de traitement automatique de langue naturelle, 
tels que des analyseurs syntaxiques et/ou 
semantiques, utilisent des ensembles de donnees 
caracterisant une seule langue a la fois, tels qu'un 

15 lexique de forme lexicale de base constituant des 
entrees de dictionnaire ou de lexique, des regies 
morphologiques et des regies grammat icales , pour une 
seule langue a la fois. Meme si I'outil est capable 
de traiter n'importe quelle langue, les donnees sont 

20 souvent preparees afin d' analyser une langue a -ia 

fois. *v 

- 

L 1 identification de la langue d'un texte est 
done indispensable avant d' analyser linguist iquement 
le texte. 

25 Selon un autre exemple, 1 ' identification de 

langue est encore plus necessaire lorsqu'un texte est 
ecrit dans plusieurs langues par exemple de maniere a 
traduire ce texte multilingue en une langue unique. 

30 Le brevet US 5062143 propose une approche 

statistique au moyen de trigrammes, e'est-a-dire de 
suites de trois caracteres consecutifs pour 
identifier la langue utilisee dans un texte. 
Initialement , pour chaque langue, des trigrammes qui 

35 apparaissent le plus frequemment dans un texte de 
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cette langue d'une taille raisonnable, par exemple de 
500 caracteres environ, sorit detectes de maniere a 
constituer un ensemble cle de trigrammes. Les 
trigrarnmes dont la frequence d 1 occurrence est au 
moins egale a une frequence predeterminee constituent 
1' ensemble cle de cette langue. Par exemple pour un 
alphabet de 26 lettres et des trigrammes composes de 
caracteres, y compris au moins un espace, 1' ensemble 
cle. comprend 80 trigrammes approximat ivement qui 
surviennent a une frequence d' occurrence 

representative d'une probability assez elevee. 

Le texte dont la langue doit etre identifiee est 
ensuite analyse pour le decomposer en trigrammes de 
maniere a y reconnaitre et a compter les trigrammes 
de l 1 ensemble cle pour une langue donnee. Les 
trigrammes des ensembles cle pour les autres langues 
sont egalement detectes et comptes. La langue pour 
laquelle le pourcentage de correspondances de 
trigrammes avec l 1 ensemble cle respectif est le plus 
grand et excede une valeur predeterminee, est reputee 
etre la langue dans laquelle le texte est ecrit. 

La presente invention n'est pas limitee a des 
trigrammes, mais utilise des n-grammes typiques et 
* non systematiques. En effet, les trigrammes d'une 
langue ne sont pas le reflet precis de 
caracterist iques d'une langue qui permettent de la 
distinguer par rapport a d' autres langues 
predeterminees. 

L' identification precedente d'une langue par 
approche statistique depend considerablement de la 
longueur du texte dont la langue est a identifier. Si 
le texte, telle qu 1 une ' phrase, est assez long, 
1 1 approche par trigrammes selon le brevet US 5062143 
confere un resultat fiable meme si le texte contient 
des mots d'une autre langue. En revanche, 
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1 ' identification d'une langue dans une phrase courte 
au moyen seulement de trigrammes est nettement moins 
precis d'autant plus que le nombre de langues 
susceptibles d'etre identifiees est grand. Par 
exemple, la langue de la phrase anglaise "I want to 
go to Birmingham" peut etre identifiee comme 
polonaise a cause des trigrammes "t-o-espace", et 
"espace-t-o" qui ' sont plus frequents en polonais 
qu'en anglais. 

Au lieu d ! identifier la langue d'un document 
textuel entier, le procede selon le brevet US 6292772 
Bl identifie la langue de mots individuels avec 
precision. Le procede d 1 identification selon ce 
brevet utilise des n-grammes de caracteres d'une 
longueur quelconque f par exemple des unigrammes, des 
bigrammes, des trigrammes, et ainsi de suite, et n,©n 
seulement des trigrammes. Chaque mot est decompose .en 
un ou plusieurs n-grammes consecutifs de maniere, a 
determiner un premier n-gramme au debut du mot, un pu 
plusieurs n grammes intermediaires suiyants et • ; un 
dernier n-gramme qui ne se chevauchent pas et qui 
caracterisent le mot a analyser. Tous ces n-grammes 
sont compares a des n-grammes pre-memorises d'une 
langue qui ont ete definis statistiquement dans des 
textes d 1 apprentissage de la langue. 

Ce procede determine ainsi la langue a laquelle 
appartient un mot isole et est repete pour chacun des 
mots d'un texte pour identifier la langue de ce 
texte. 

Lorsqu'un mot, c' est-a-dire un modele de n- 
grammes, est contenu dans plusieurs langues, des 
poids respectifs sont attribues a ces langues pour 
les distinguer. Par exemple si le mot est "de", 
l'approche statistique sans ponderation indique une 
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probability iderttique pour • le frangais, le 
neerlandais et l'espagnol, ces trois langues 
contenant le mot "de". La ponderation perrnet de 
designer 1 1 une de ces trois langues alors qu ! il n'est 
5 pas certain que ce mot dans le contexte d'une phrase 
appartienne veritablement a cette langue. 

L' invention vise a accroitre la precision de 
1 ' identification d'une langue d'un texte relat ivement 

10 court parmi plusieurs langues d'une maniere beaucoup 
plus fiable et efficace que par les approches 
statistiques precitees, independamment de 1 'analyse 
d'un texte d 1 apprentissage dans chacune des langues a 
identifier. Elle vise egalement a reduire la capacite 

15 de memoire dans un dispositif d ' identification 
automatique de langue, cornparativement a I'etendue 
considerable de memoire requise pour memoriser tous 
les trigrammes et plus generalement les n-grammes de 
chaque langue selon les approches statistiques selon 

20 la technique anterieure. 

A cette fin, un dispositif identifiant 
automatiquement la langue d'un texte numerique et 
ayant memorise des chaines de caractere numeriques 
25 pour chacune de plusieurs langues predetermines , est 
caracterise en ce qu'il comprend : 

- un moyen pour memoriser prealablement des 
premieres chaines de caractere qui sont frequentes 
respectivement dans des mots des langues 

30 predetermines et les caracterisent, et des deuxiemes 
chaines de caractere qui sont atypiques 
respectivement dans les langues predetermines, 

- un moyen pour analyser des mots extraits du 
texte numerique afin de constitu'er pour chaque mot 
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extrait des chaines de caractere contenues dans le 
mot extrait, 

- un moyen pc>ur comparer chacune des chaines 
de caractere contenues dans le mot extrait aux 

5 premieres et deuxiemes chaines de caractere d' une 
langue determinee afin qu 1 a chaque fois qu'une 
premiere chaine de caractere est trouvee dans le mot 
extrait, un score associe a la langue determinee 
augmente d'un premier coefficient dependant de la 

10 position de la premiere chaine de caractere trouvee 
dans le mot extrait, et a chaque fois qu'une deuxieme 
chaine de caractere est trouvee dans le mot extrait, 
le score de langue diminue d'un deuxieme coefficient 
respectif associe a la deuxieme chaine de caractere 

15 trouvee, et 

- un moyen pour comparer les scores du texte 
associes aux langues predeterminees (afin d t e 
determiner le plus grand des scores qui identifie la 
langue du texte. 

20 Toutes les chaines de caractere contenues dans 

le mot extrait ont une longueur comprise entre .un 
caractere et le nombre de caractere dans le mot 
extrait. Typiquement, une premiere chaine de 
caractere est constitute par 1 1 une des chaines de 

25 caractere suivantes dans un mot extrait : un prefixe, 
un pseudo prefixe, un suffixe, un pseudo suffixe, un 
infixe, un pseudo infixe 

Le premier coefficient d'une premiere chaine de 
caractere dans le mot extrait peut egalement dependre 

30 de la frequence de la chaine de • caractere dans la 
langue determinee et/ou de la longueur de la chaine 
de caractere. 

L T identification de langue est encore plus 
precise lorsque le dispositif comprend un moyen de 

35 comparaison pour comparer chacun des mots extraits du 
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texte avec des mots frequents dans la langue 
determinee et initialement repertories dans un moyen 
de memoire afin qu T a chaque fois qu'un mot frequent 
est trouve dans le texte, le score de la langue 
5 determinee n'augmente que d'un coefficient dependant 
de la longueur du mot frequent. 

■ D'autres caracterist iques et avantages de la 
presente invention apparaitront plus clairement a la 
10 lecture de la description suivante de plusieurs 
realisations preferees de 1' invention en reference 
aux dessins annexes correspondants dans lesquels : 

- la figure 1 est un bloc-diagramme schematique 
d'un dispositif d 1 identification automatique de 

15 langue selon 1 T invention ; et 

- la figure 2 est un algorithme d 1 identification 
automatique de langue selon 1' invention. 

L ' identification automatique de langue selon 

20 1' invention est mise en oeuvre sous la forme d'une 
application specifique implementee dans un ordinateur 
personnel (PC), ou dans un terminal d'usager pouvant 
etre connecte a reseau de telephonie ou de 
radiotelephonie et eventuellement au reseau internet, 

25 ou bien dans un serveur qui est interrogeable par des 
usagers depuis leurs terminaux. 1/ ordinateur 
personnel ou le terminal ou le serveur constitue un 
dispositif d 1 identification de langue DI selon 
r invention dont les principaux composants logiciels 

30 relatifs a 1 1 identification automatique de langue 
selon 1' invention sont illustres a la figure 1. 

Un texte qui est initialement saisi dans le ou 
transmis au dispositif d 1 identification de langue DI 
est numerise en un texte numerique TX formate par 

35 exemple conforraement aux specifications du langage de 
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documents hypertextes HTML (HyperText Markup 
Language) Des fichiers d'en-tete et .de fin 
specifiques sont ajoutes au fichier du texte -TX a 
traiter pour que le fichier de texte soit au format 
5 HTML * Le texte TX a traiter est decoupe en mots MT 
par un extracteur 1 qui detecte les espaces entre les 
mots dans le texte TX. Les mots separes trouves dans 
le texte TX sont memorises dans le dispositif DI . 

10 Le dispositif DI comprend essent iellement trois 

types de base de donnees 2, 3 et 4 pour memoriser 
respectivement des premieres chaines de caractere 
relativement frequentes classees dans trois 
repertoires PRq, SUq et INq, un repertoire de chaines 

15 de caractere atypiques voire improbables ATq, et »un 
repertoire de mots frequents MFq relatifs a u.ne 
langue determinee Lq. Les bases de donnees 2, 3 et r 4 
contiennent en pratique chacune 3Q, Q, Q repertoires 
relatifs respectivement a plusieurs langues LI a LQ, 

20 avec 1 < q < Q, ou Q est un entier qui peut etre *au 
moins egal a 2, typiquement de l'ordre .de 10 a ^30 
environ ou plus. En variante, les bases de donnees -*2, 
3 et 4 sont groupees dans un serveur de gestion de 
base de donnees (SGBD) . 

25 Les trois premiers repertoires PRq, SUq et 

INq sont relatifs a des morphemes, syllabes et 
petites chaines de caractere CH a 1 a par exemple 6 
caracteres qui se retrouvent frequemment dans la 
langue Lq et qui caracterisent particulierement la 

30 langue Lq par rapport aux autres langues LI a L(q-l) 
et L(q+1) a LQ . Le repertoire PRq contient des 
prefixes, y compris des syllabes et des chaines de 
caractere d'attaque non morphologiques , c'est-a-dire 
des pseudo prefixes, rencontres frequemment dans, des 

35 mots de la langue Lq. Le repertoire SUq contient des 
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suffixes, y compris' des syllabes -et des terminaisons 
nori morphologiques, c'est-a-dire des pseudo suffixes, 
rencontres f requemment dans des mots de la langue Lq. 
Le repertoire INq contient des infixes, y compris des 
syllabes et des chaines de caractere non 
morphologiques , c'est-a-dire des pseudo infixes, 
rencontres f requemment a 1 1 interieur de mots dans la 
langue Lq. 

Par exemple, pour la langue frangaise, les trois 
repertoires precedents PRq, SUq et INq contiennent 
les morphemes et autres chaines de caractere 
caracteristiques suivants : 
PRq = de-, re- n ! -, l 1 -, qu 1 -, d ' - ; 
SUq = -ais, -aient, -ent, -ee, -ees, -er ; 
INq = -ou- , -oi- . 

Chaque chaine de caractere CH inscrite dans run 
des repertoires PRq, SUq et INq dans la base de 
donnees 2 est associee a un coefficient respectif CCH 
qui depend d'un coefficient PO et opt ionnellement de 
deux coefficients FR et LON . 

Le coefficient PO depend de la position de la 
chaine de caractere CH dans un mot de la langue Lq, 
c'est-a-dire si la chaine de caractere CH constitue 
un prefixe ou pseudo prefixe, un suffixe ou pseudo 
suffixe, ou un infixe ou pseudo infixe. Par exemple 
pour le frangais, le coefficient PO est le plus grand 
pour le repertoire de suffixe SUq et egal a 1,4, est 
intermediaire pour le repertoire de prefixe PRq et 
egal a 1,3, et .est le plus petit pour le repertoire 
d 1 infixe INq et egal a 0,8. 

Le coefficient FR depend de, par exemple est* 
proportionnel a, la frequence de la chaine de 
caractere CH dans la langue Lq. Par exemple, le 
coefficient FR est la moyenne d ' occurrences de la 
chaine de caractere CH dans un texte relativement 
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long de plus de mi lie mots environ dans la langue 
determinee Lq. Par .exemple, en frangais la 
terminaison "-es" est beaucoup plus frequente et 
caracteristique de la langue frangaise que la 
terminaison "-ions". Par consequent le coefficient FR 
pour la terminaison M -es" est plus eleve que le 
coefficient FR pour la terminaison moins frequente 
ions". Pour la langue allemande, le coefficient FR 
est beaucoup plus faible pour chacune des deux 
terminaisons precedentes . 

Le coefficient LON depend de, par exemple est 
proportionnel a, la longueur de la chaine de 
caractere CH . Par exemple pour un mot de dix 
caracteres, le coefficient LON est egal a 1,3 ou 1,5 
lorsque la chaine de caractere CH contient trois 'ou 
cinq caracteres. 

Le coefficient CCH est typiquement de la formed.: 
CCH = PO(FR + LON) . 

Le quatrieme repertoire ATq dans la base de 
donnees 3 concerne des caracteres et des chaines .de 
caractere atypiques qui n' appartiennent pas a . >; la 
langue Lq et qui sont tres rarement utilises dans 
celle-ci . 

Par exemple pour la langue frangaise, le 
repertoire ATq est compose d T un ensemble de pseudo 
prefixes atypiques ou improbables, tels que "kr, ge", 
un ensemble de pseudo infixes atypiques ou 
improbables tels que "a, 6, n, uu, kk", un ensemble 
de pseudo suffixes atypiques ou improbables tels que 
"-ed", et un ensemble de mots atypiques ou 
improbables. 

Chaque chaine de caractere atypique dans la base 
de donnees 3, egalement designee par ATq, est 
associee a un coefficient respectif CAT qui est 
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d 1 autant plus eleve que la chalne de caractere 
atypique est 'improbable dans' la 'langue Lq . 

Le cinquieme repertoire MFq dans la base de 
donnees 4 contient les mots les plus frequents de la 
langue' Lq. 

Par exemple le repertoire MFq contient pour la 
langue frangaise les mots suivants : "de, le, la, 
les, y, a, il, ou, et". 

Chaque mot frequent egalement designe par MFq 
est associe a un coefficient CMF representat if de, 
par exemple proportionnel a, la frequence dans la 
langue Lq et eventuellement la longueur du mot 
frequent MFq. Par exemple, le coefficient CMF est la 
moyenne d 1 occurrences du mot frequent MFq dans un 
texte relativement long de plus de mille mots environ 
dans la langue determinee Lq. 

Le dispositif d 1 identification de langue DI 
comprend egalement un comparateur de mot 5, un 
analyseur de mot 6, deux comparateurs de chaine de 
caractere 7 et 8, un accumulateur de coefficient 9 et 
un comparateur de score 10. Les modules logiques 5 a 
9 sont utilises pour chacune des langues LI a LQ. 
Pour une langue determinee Lq, les modules logiques 5 
a 9 ont les fonctions suivantes. 

Le comparateur de mot 5 compare chacun des mots 
extraits du texte TX par 1'extracteur 1 aux mots 
frequents MFq • contenus dans la base de donnees 4 
relatifs a la langue determinee Lq. L r analyseur 6 
analyse" chaque mot extrait MT de maniere a constituer 
toutes les chaines de caractere CH incluses dans le 
mot extrait MT et ayant des longueurs comprises entre 
un caractere et le nombre de caractere du mot 
extrait. Chacune des chaines de caractere CH 
constitutes par l 1 analyseur 6 est appliquee aux 
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comparateurs 7 et 8 de. maniere a les comparer 
respectivement aux premieres chaines de caractere 
PRq, SUq et INq contenues dans la base de donnees 2 
pour la langue determinee Lq et aux deuxiemes chaines 
de caractere ATq contenues dans la base de donnees 3 
pour la langue determinee Lq. 

Lorsqu'il y a identite des mots ou des chaines 
de caractere dans le comparateur 5, ou 7, 8, celui-ci 
autorise la lecture du coefficient respectif CMF, ou 
CCH, CAT dans les bases de donnees 2, 3, 4 via des 
portes d'autorisation de lecture ET 51, 71, 81 de 
maniere a appliquer le coefficient lu a 
1 1 accumulateur de coefficient 9. Les coefficients CMF 
et CCH sont additionnes a un score Sq relatif a la 
langue determinee Lq et mis initialement a zero, 
tandis qu 1 un coefficient de chaine de caractere 
atypique CAT est soustrait au score de langue Sq. 

Le comparateur de score 10 compare finaleme^nt 
tous les scores de langue SI a Sq qui ont ate 
determines et memorises par 1 1 accumulateur 9 afin de 
determiner le plus grand score qui identifie . >jj_a 
langue du texte TX. 

En reference maintenant a la figure 2, 
prealablement a 1 1 identification automatique de la 
langue du texte TX saisi dans le ou transmis au 
dispositif d 1 identification de langue DI selon 
l 1 invention, les cinq repertoires PRq, SUq, INq, ATq 
et MFq sont constitues dans les bases de donnees 
(SGBD) 2, 3 et 4 pour chaque langue .determinee Lq que 
le dispositif d 1 identification de langue DI est 
capable d 1 identifier, avec 1 < q < Q, a une etape 
initiale E0 . Ces repertoires resultent d 1 une analyse 
morphologique de la langue Lq . 
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L 1 identification de la langue du texte TX 
compose de mots MT; ou 'compose" simplement d 1 un seul 
mot MT , comprend des etapes principales El a E14 
montrees a la figure 2. 

Apres' avoir mis un indice de langue q a 0, on 
recherche une " identification par rapport a une 
premiere langue et plus generalement a une langue 
determinee Lq, a la premiere etape El. Une variable 
de score Sq est mise a 0 et 1' indice de langue q est 
augmente de 1. En fonction des espaces entre les 
mots, l'extracteur 1 scinde le texte TX a traiter en 
des mots extraits MT, a 1 T etape E2 . 

Pour chaque mot extrait MT du texte TX, les 
etapes suivantes E3 a Ell sont effectuees. 

A I 1 etape E3, le comparateur de mot 5 interroge 
le repertoire de mot frequent MFq de la langue Lq 
pour y retrouver eventuellement le mot MT . Si le mot 
MT appartient au repertoire MFq, le comparateur de 
mot 5 autorise la lecture du coefficient CMF associe 
au mot MT via la porte 51 afin que 1 ' accumulateur 9 
augmente le score Sq du coefficient lu CMF, a 1 1 etape 
E4. Plus le mot MT est frequent dans la langue Lq et" 
est eventuellement long, plus le coefficient CMF est 
eleve. Puis le procede d 1 identification passe a 
1 1 etape Ell. 

Si a 1 T etape E3 le comparateur 5 ne considere 
pas le mot MT comme un mot frequent de la langue Lq, 
le comparateur 5 active l'analyseur de mot 6. 
L'analyseur 6 analyse le mot' extrait MT pour 
constituer et memoriser soit des chaines de caractere 
CH incluses dans " le mot" extrait MT telles que 
definies respectivement dans les repertoires inclus 
dans les bases de donnees 2 et 3, soit toutes les 
chaines de caractere CH incluses dans le : mot- extrait 
MT et ayant des longueurs comprises entre un 
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.caractere et le nombre de caractere du mot extrait, a 
l'etape E5. Selon la derniere yariante, les chalnes 
de caractere CH contenues dans le mot extrait MT et 
trouvees dans les repertoires PRq, SUq et INq peuvent 
se recouvrir part iellement , contrairement aux. n- 
grammes selon 1 1 appr.oche du brevet US 6292772 Bl deja 
commente. Par exemple,- lorsque le mot traite MT est 
"aiment" en frangais, les chaines de caractere "ment" 
et "ent" placees dans le repertoire de * pseudo 
suffixes SUq se recouvrent dans le mot traite. Selon 
un autre exemple, l T infixe "oi ,f et le pseudo suffixe 
"is" du mot traite "vols" se recouvrent, 

L'analyseur 6 applique ensuite successivement 
les chaines de caractere CH constitutes pour le mot 
extrait MT aux comparateurs de chaine de caractere,. 7 
et 8 . y -/ 

Le comparateur 7 recherche dans les repertoires 
PRq, SUq et INq de la base de donnees 2 les premieres 
chaines de caractere CH qui sont contenues dans .le 
mot MT, a 1 1 etape E6. Pour chaque chaine de caractere 
CH dans le mot extrait MT appartenant a 1 1 un .d'es 
repertoires PRq, SUq et INq, le comparateur de chaine 
de caractere 7 autorise la lecture du coefficient CCH 
= PO(FR + LON) associe a la chaine de caractere CH 
via la porte 71 afin que 1' accumulateur 9 augmente le 
score Sq du coefficient lu CCH, a 1' etape E7 . Les 
coefficients PO, FR et LON dependent respect ivement 
de la position de la chaine de caractere CH dans le 
mot extrait MT, de la frequence de la chaine de 
caractere CH dans la langue determinee Lq, et de la 
longueur de la. chaine de caractere CH . 

Que la chaine de caractere CH dans le mot 
extrait MT ait ete trouvee ou non dans les 
repertoires PRq, SUq et INq, et parallelement aux 
etapes E6 et E7, le comparateur de chaine de 
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caractere 8 recherche dans " le repertoire ATq - de la 
base de donnees 3 les chaines-' de -caractere CH qui 
sont contenues dans le mot MT, a 1'etape E8 . Pour 
chaque chaine de caractere CH dans le mot extrait MT 

5 appartenant au repertoire ATq, le comparateur 8 
autorise la lecture du coefficient CAT associe a la 
chaine de caractere CH via la porte 81 afin que 
racciimulateur 9 diminue le score Sq du coefficient 
lu CAT, a 1'etape E9. 

10 Comme indique a 1'etape E10, les etapes E6 a E9 

sont repetees pour chacune des chaines de caractere 
CH contenues dans le mot extrait MT . Le score Sq pour 
la langue determinee Lq est ainsi augmente de la 
somme des coefficients CCH et diminue de la somme des 

15 coefficients CAT relatives aux chaines de caractere 
CH incluses dans le mot extrait MT et respectivement 
trouvees dans les repertoires des bases de donnees 2 
et 3, ou augmente du coefficient CMF si le mot 
extrait MT a ete trouve dans le repertoire MFq de la 

20 base de donnees 4, apres 1 1 etape E10. 

Comme indique a 1'etape Ell, si le texte traite 
TX contient d'autres mots, les etapes E2 a E10 sont 
executees pour chacun des mots extraits du texte TX, 
Quand tout le texte TX a ete traite, si le score Sq 

25 pour la langue Lq est negatif a cause de 
1 1 application de 1 1 etape E9, le score Sq peut etre 
mis a 0 a I 1 etape E12. Le score Sq pour la langue Lq 
est memorise dans le dispositif DI qui, a l f etape 
E13, verifie que le score d'une autre langue doit 

30 etre determine en executant les etapes El a E12. 

Lorsque les scores SI a SQ de toutes les langues 
LI a LQ ont ete determines pour le texte traite TX, 
le comparateur de score 10 compare les Q scores afin 
de determiner le plus grand score Sup(Sq) qui 

35 identifie la langue du texte TX, a 1'etape E14 . Puis 
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par exemple un i dent if icateur de la langue du texte 
ainsi identifiee est transmis par le dispositif DI a 
un analyseur syntaxique et semantique de maniere a 
traduire le texte TX en une langue maternelle d 1 un 
utilisateur, ou bien a le convertir sous forme orale, 
ou bien encore a I'utiliser pour indexer le texte en 
fonction de sa difficulty de comprehension ou generer 
des trous pour en constituer un exercice a trous pour 
1 ■ apprent issage de la langue identifiee. 

Le cas echeant a l'etape 14, le dispositif Dl 
affiche a 1 1 utilisateur le score de ■ toutes les 
langues LI a Lq trie selon 1 1 ordre decroissant. Le 
nombre de langue Q n'est a priori pas limite. 

Si le texte est constitue par un ou plusieurs 
mots appartenant a deux langues differentes poyr 
lesquelles les coefficients sont respectivement 
identiques pour les deux langues, les scores pour c.es 
deux langues sont identiques, et non differents selon 
la technique anterieure. 

L' identification de langue selon 1 ' invention est 
particulierement performante par rapport a >ha 
technique anterieure lorsque le texte est 
relativement court. Toutefois, en variante, 
1 ' identification de langue selon l 1 invention peut 
etre combinee avec une identification de langue par 
approche statistique connue, en appliquant 
1 1 identification de langue selon 1 ! invention lorsque 
le texte contient un nombre de caracteres ou un 
nombre de mots inferieur a un seuil predetermine, et 
en appliquant 1 1 identification connue par approche 
statistique lorsque le nombre de caracteres ou de 
mots dans le texte traite TX est superieur au seuil 
predetermine . 
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RE VEN DI C AT I ON S 

1 - Dispositif identifiant automat iquement la 
langue d'un texte numerique (TX) et ayant memorise 
des chaines de caractere numeriques pour chacune de 
plusieurs langues predeterminees (Ll-LQ) , caracterise 
en ce qu'il comprend : 

- un moyen (2, 3) pour memoriser prealablement 
des premieres chaines de caractere (PRq, SUq, INq) 
qui sont frequentes respect ivement dans des mots des 
langues predeterminees et les caracter isent , et des 
deuxiemes chaines de caractere qui sont atypiques 
(ATq) respectivement dans les langues predeterminees, 

- un moyen (6) pour analyser des mots extraits 
du texte numerique (TX) afin de constituer (E5) pour 
chaque mot extrait (MT) des chaines de caractere (CH) 
contenues dans le mot extrait, 

un moyen (7 , 8, 9) pour comparer chacune (CH) 
des chaines de caractere contenues dans le mot 
extrait (MT) aux premieres et deuxiemes chaines de 
caractere (PRq, SUq, Inq ; ATq) d'une langue 
determinee (Lq) afin qu'a chaque fois qu'une premiere 
chaine de caractere est trouvee (E6) dans le mot 
extrait, un score (Sq) associe a la langue determinee 
(Lq) augmente (E7) d T un premier coefficient (CCH) 
dependant de la position de la premiere chaine de 
caractere trouvee dans le mot extrait, et a chaque 
fois qu'une deuxieme chaine de caractere est trouvee 
dans le mot extrait, le score de langue (Sq) diminue 
(E9) d'un deuxieme coefficient respectif (CAT) 
associe a la deuxieme chaine de caractere trouvee, et 

- un moyen (10) pour comparer les scores du 
texte associes aux langues predeterminees (Ll-LQ) 
afin de determiner le plus grand des scores qui 
identifie la langue du texte. 
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2 - Dispositif conforme a la revendication 1, 
dans lequel une premiere chaine de caractere est 
constitute par 1 1 une des chaines de caractere 
5 suivantes dans un mot extrait : un prefixe, un pseudo 
prefixe, un suffixe, un pseudo suffixe, un infixe-, un 
pseudo inf ixe . 

3 - Dispositif conforme a la revendication 1 ou 2 , 
10 dans lequel le premier coefficient (CCH) d'une 
premiere chaine de caractere (CH) dans le mot extrait 
(MT) depend de la frequence de la chaine de caractere 
dans la langue determinee (Lq) . 

15 4 - Dispositif conforme a 1 1 une quelconque des, 

revendications 1 a 3, dans lequel le premier 
coefficient (CCH) d'une premiere chaine de caractere 
(CH) dans le mot extrait (MT) depend de la longueur 
de la chaine de caractere. 

20 

5 - Dispositif conforme a 1 1 une quelconque des 

A?. 

revendications 1 a 4, dans lequel le premier 
coefficient (CCH) d'une premiere chaine de caractere 
(CH) dans le mot extrait (MT) est determine selon la 

25 relation suivante : 
PO (FR + LON) , 
dans laquelle PO est un coefficient dependant de la 
position de la premiere chaine de caractere dans le 
mot extrait, FR est un coefficient dependant de la 

30 frequence de la premiere chaine de caractere dans la 
langue determinee (Lq) , et LON est un coefficient 
dependant de la longueur de la premiere chaine de 
caractere . 
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6 - Dispositif conforme a 1 1 une quelconque des 
revendications 1 a 5, caracterise en ce qu'il 
comprend un moyen de comparaison (5, 9) pour comparer 
chacun des mots extraits (MT) du texte (TX) avec des 
mots (MFq) frequents dans la langue determinee (Lq) 
et initialement repertories dans un moyen de memoire 
(4) afin qu'a. chaque fois qu 1 un mot frequent est 
trouve dans le texte, le score (Sq) de la langue 
determinee (Lq) n'augmente que d'un coefficient (CMF) 
dependant de la longueur du mot frequent. 
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